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摘 要 : [目的 /意义 ] 面 向 当前 国内 专利 审查 和 专利 情报 分 析 工 作 中 对 于 海量 专利 分 类 的 客观 需求 ,设计 了 7 种 基于 深度 
学 习 的 专利 自动 分 类 方法 ,对 比 各 种 方法 的 分 类 效果 ,从 而 助力 专利 分 类 效率 和 效果 的 提升 。[ 方法 /过程 ] 针 对 
传统 机 器 学 习 方 法 存在 的 缺陷 ,基于 Word2Vec、CNN、RNN、Attention 机 制 等 深度 学 习 技 术 , 考 虑 专利 文本 语序 特 
征 \ 上 正文 特征 以 及 分 类 关键 特征 ,设计 Word2Vec + TextCNN , Word2 Vec + GRU , Word2Vec + BiGRU Word2 Vec + 
BiGRU + TextCNN 等 7 种 深度 学 习 模 型 ,以 中 国 专 利 为 例 ,选取 IPC 主 分 类 号 的 “部 ”作为 分 类 依据 ,对 比 这 7 种 模 
型 与 3 种 传统 分 类 模型 在 中 文 专利 分 类 任务 中 的 效果 。[ 结果 /结论 ] 实证 研究 效果 显示 ,采用 考虑 语序 特征 上 
下 文 特征 及 强化 关键 特征 的 深度 学 习 方 法 进行 中 文 专利 分 类 具有 更 优 的 分 类 效果 。 


y™ 
> 
Eu. saaana 


Qs. 6254.11 
: 10. 13266/j. issn. 0252 ~ 3116. 2020. 10. 009 


深度 学 习 


词 误 入 ”专利 文本 挖掘 


国 建设 计划 的 不 断 推进 ,我 国 专利 数量 不 断 取得 突破 ， 


人 品 忆 。 从 具体 数量 来 看 ,根据 我 国 国家 知识 产权 局 的 
专利 统计 年 报 ,2016 年 .2017 年 和 2018 年 我 国 国内 专 
利生 请 量 分 别 为 3 305 225 (.3 536 333 件 和 
4 06 772 件 ”。 如 此 大 规模 的 专利 申请 数量 得 益 于 我 
国 科 技 实力 的 逐步 增强 ,但 也 给 专利 审查 .管理 和 分 析 
挖掘 带 来 了 巨大 挑战 。 

专利 分 类 是 对 海量 专利 文献 组 织 检索、 分 析 和 管 
理 的 有 效 手 段 ,目前 国际 上 应 用 广泛 的 专利 分 类 体系 
包括 国际 专利 分 类 IPC ( International Patent Classifica- 
tion) 美国 专利 分 类 USPC(U. S. Patent Classification) , 
欧洲 专利 分 类 ECLA ( European Classification System ) 、 
日 本 专利 分 类 FI/F term 和 联合 专利 分 类 CPC( cooper- 
ative patent classification ) 等 ,此 外 还 有 一 些 根据 特定 需 
求 场景 定制 的 个 性 化 分 类 ,如 中 科 院 拍卖 专利 技术 分 


类 专利 国民 经 济 产业 分 类 ”等 。 通 过 这 些 分 类 ,技术 
人 员 能 够 更 快速 地 定位 专利 信息 ,专利 分 析 人 员 能 够 
高 效 检索 专利 数据 集 ,市 场 运 营 人 员 能 够 精准 定位 潜 
在 转移 转化 专利 。 但 是 , 现 阶段 专利 分 类 号 的 划分 工 
作 目 前 基本 依靠 审查 员 或 领域 技术 人 员 划 分 ,在 当前 
专利 数量 爆炸 式 增长 的 背景 下 ,这 项 工作 的 工作 量 和 
工作 压力 愈 发 变 大 。 因 此 ,伴随 着 智能 技术 的 迅猛 发 
展 ,引入 先进 智能 技术 探索 自动 化 专利 分 类 方式 对 于 
减轻 专利 分 类 工作 量 、 提 升 分 类 工作 效率 具有 重要 的 
现实 意义 。 

作为 近年 来 智能 技术 的 代表 性 技术 一 一 深度 学 习 
技术 ,在 文本 分 类 任务 上 不 断 被 应 用 并 取得 更 优 效 
果 ”“-"”。 基 于 此 ,本 研究 结合 专利 文本 相对 格式 化 的 
撰写 和 行文 特点 ,研究 基于 深度 学 习 技术 的 专利 自动 
分 类 方法 并 进行 分 类 效果 评价 。 


2 专利 自动 分 类 研究 现状 


专利 自动 分 类 是 计算 机 基于 特定 规则 元 数据 或 
文本 内 容 等 特征 自动 地 为 专利 分 配 一 个 或 几 个 专利 分 


* 本 文系 中 国 科学 院 青 年 人 才 项 目 " 基 于 深度 学 习 的 专利 所 属 产业 分 类 ”( 项 目 编号 :G180161001 ) 研究 成 果 之 一 。 


作者 简介 : 


昌 璐 成 (ORCID :0000 - 0002 -2318 - 1073) ,助理 研究 员 ,博士 研究 生 , 了 -mail:lucheng918@126. com; 韩 涛 ( ORCID :0000 -0001 - 


5955 -7813 ) ,研究 员 ,博士 ,硕士 生 导师 ; 周 健 (ORCID :0000 -0001 — 8674 - 6062 ) ,博士 研究 生 ; 赵 亚 娟 (ORCID :0000 -0003 -3501 - 8131), 


研究 员 ,博士 ,博士 生 导 师 。 


收 稿 日 期 :2019-11-11 修 回 日 期 :2019 -12 -27 本 文 起 止 页 码 :75 -85 ”本文 责任 编辑 : 杜 杏 叶 


75 


&Q 44i xt 


$864 25 58 10 Hd. 2020 £5 H 


ChinaXiv 合 作 期 刊 


类 号 的 过 程 。 

专利 自动 分 类 研究 从 分 类 体系 角度 可 分 为 基于 现 
有 专利 分 类 体系 进行 分 类 以 及 基于 个 性 化 分 类 体系 分 
类 两 种 。 基 于 现 有 专利 分 类 体系 进行 分 类 的 研究 主要 
围绕 IPC" ^?! . USPC' ECLA!!! FVF -term ? ^ 等 

国际 通用 分 类 体系 为 依据 进行 分 类 展开 ;基于 个 性 化 
分 类 体系 进行 分 类 的 研究 主要 围绕 基于 TRIZ 等 经 典 
理论 体系 或 根据 特定 需求 定制 的 分 类 体系 作为 分 类 依 
据 进 行 分 类 ,如 C. HE ^75 WER T 、 翠 继 强 "9 开展 
了 基于 面向 TRIZ 设计 的 分 类 体系 的 专利 分 类 , 刘 龙 繁 
等 "基于 面向 产品 创新 设计 的 专利 功能 基 分 类 体系 
开展 自动 分 类 研究 ,X. ZHANG 基于 电动 汽车 领域 分 
类 体系 (专家 划分 ) 开 展 自动 分 类 研究 。 

本 专利 自动 分 类 研究 从 分 类 方法 角度 可 分 为 基于 特 
定 规则 、 基 于 引证 关系 和 基于 文本 内 容 挖掘 的 分 类 方 
法 党 类 。 基 于 特定 规则 分 类 方面 ,如 C. HE 基于 关 
联 击 则 挖 所 方法 识别 类 目 规则 ,进而 构建 自动 分 类 器 ; 
基 包 引证 关系 方面 ,如 S. CHANG 等 基于 专利 引证 
关系 对 专利 进行 聚 类 并 对 类 艇 涉及 技术 进行 解读 进而 
梅 建 分 类 体系 ,K. LAI 等 ” 基于 基础 专利 的 共 被 引 关 
藉 息 用 因子 分 析 的 方法 建立 分 类 体系 ;基于 文本 内 容 
控 氮 分 类 的 研究 数量 较 多 且 持续 受到 关注 ,以 下 进行 
详细 论述 。 

. 它 基 于 专利 文本 内 容 挖 据 进 行 自动 分 类 属于 自然 语 
ps NLP, Natural Language Processing) 中 的 文本 分 
KIES ,该 过 程 的 经 典 方法 是 采用 机 器 学 习 方 法 ,通过 
特征 工程 的 手段 ,确定 专利 分 类 潜在 依据 特征 ,进而 采 
用 网 叶 斯 分 类 器 .SVM .逻辑 回归 等 机 器 学 习 算法 进行 
自动 分 类 。 此 类 方法 常用 的 特征 是 词 袋 特征 , 即 采 用 
词 袋 模型 ( Bag of Words) 将 专利 文本 表示 为 所 包含 词 
iE ftris pg dat 7 , 但 由 于 单纯 词 频 表 示 带 来 的 无 效 
词 (如 虚词 .连词 等 功能 词 ) 高 频 噪 声 问 题 ,后 来 采用 
词 频 逆 文档 频率 (TFIDF) 取代 原始 向 量 中 的 词 频 的 方 
法 被 广泛 应 用 ,如 贾 杉 杉 等 "使 用 从 专利 申请 书 中 提 
取 的 TFIDF 特征 ,分 别 训练 朴素 贝 叶 斯 、 支 持 向 量 机 、 
AdaBoost 分 类 器 预测 IPC 分 类 号 。 此 外 ,一 些 新 的 特 
征 也 在 被 不 断 引 入 进而 提升 分 类 效果 ,如 S. VER- 
BERNE 等 在 专利 特征 词 的 基础 上 加 上 特征 词语 义 
三 元 组 信息 进而 改善 分 类 准确 率 ;J. STUTZKI 等 2 引 
入 专利 申请 人 地 理 位 置地 理 数 据 特征 ,使 用 KNN 和 采 
用 一 对 其 余 (one -versus -rest ) 策略 的 SVM 分 类 器 进行 
专利 分 类 ;S. LIM 等 ”同时 在 标题 ,摘要 、 权 利 要 求 , 技 
术 领 域 和 背景 技术 信息 中 抽取 特征 进而 改善 专利 文本 


分 类 效果 。 基 于 经 典 机 器 学 习 方 法 的 专利 自动 分 类 依 
赖 研究 人 员 手 工 构建 特征 来 取得 更 好 的 分 类 效果 。 但 
是 ,以 词 袋 模型 为 代表 的 特征 表示 方式 丢失 了 专利 文本 
中 词义 信息 .语序 信息 等 语义 信息 ,例如 两 篇 同类 别 的 
文档 可 能 由 于 用 词 描 述 方式 不 同 而 无 法 准确 分 类 。 

近年 来 , 随 着 深度 学 习 技 术 的 崛起 和 在 专利 情报 
研究 中 的 不 断 应 用 ,在 基于 专利 文本 内 容 挖 掘 的 专利 
自动 分 类 这 一 研究 场景 中 ,也 产生 了 一 系列 研究 成 果 。 
如 马 双 刚 基于 深度 学 习 理 论 设计 了 降 噪 自动 编码 器 
(DAE) 和 SVM 算法 结合 的 自动 分 类 方法 ,并 选取 计算 
机 领域 的 六 个 IPC 类 别 进行 分 类 效果 验证 ; 胡 杰 等 ”| 提 
出 了 一 种 基于 卷 积 神经 网 络 与 随机 森林 算法 的 专利 文 
本 分 类 模型 ,应 用 于 英文 机 械 专利 文本 分 类 场景 ; 马 建 
PAR 构建 基于 attention 的 双向 LSTM ( Long Short - 
Term Memory ,长 短期 记忆 网 络 ) 模 型 ,对 以 100 个 专利 应 
用 效应 作为 类 标签 的 机 械 物理 类 专利 文本 进行 模型 训 
练 和 分 类 测试 ;S. B. Li 等 ”提出 一 种 基于 卷 积 神经 网 
络 和 word embedding 技术 的 DeepPatent 方法 对 英文 专利 
的 IPC 小 类 (Sub -class ) 分 类 号 进行 自动 分 类 ; 肖 立 中 
等 中 采用 Word2Vec 模型 和 LSTM 模型 发 明了 一 种 安全 
领域 中 文 专利 文本 的 分 类 方法 ,该 方法 在 安全 领域 中 文 
专利 测试 集 的 准确 率 得 到 较 大 提升 。 综 上 可 知 ,国内 外 
基于 深度 学 习 技术 开展 专利 分 类 的 方法 改进 与 应 用 研 
究 已 经 取得 一 些 成 果 , 但 是 这 些 研究 基本 是 围绕 改进 后 
的 特定 深度 学 习 方 法 与 传统 机 器 学 习 方 法 的 分 类 效果 进 
行 比 对 的 ,进行 的 尚未 形成 有 层次 的 方法 优化 逻辑 体系 。 

因此 ,本 文 面向 当前 国内 专利 审查 和 专利 情报 分 
析 工 作 中 对 于 大 规模 国内 专利 文献 分 类 的 客观 需求 ， 
针对 传统 方法 存在 的 缺陷 ,考虑 专利 文本 语序 特征 、 上 
下 文 特征 以 及 分 类 关键 特征 ,引入 深度 学 习 技术 ,有 层 
次 .成 体系 地 设计 了 7 种 专利 深度 学 习 分 类 方法 ,并 以 
中 国 专 利 为 例 ,选取 IPC. 主 分 类 号 的 部 (Section ) 作为 
分 类 依据 ,比较 了 10 种 自动 分 类 方法 在 中 文 专利 分 类 
任务 中 的 表现 ,从 而 分 析 研 判 深度 学 习 技 术 用 于 专利 
自动 分 类 的 效果 ,为 专利 分 类 工作 助力 。 
3 方法 设计 
3.1 相关 概念 辨析 

文本 向 量 表 示 和 分 类 模型 是 开展 文本 分 类 的 基 
础 ,以 下 对 本 研究 选取 的 相关 文本 向 量 表示 方法 和 基 
础 分 类 模型 的 概念 进行 曾 释 。 
3.1.1 文本 向 量 表 示 

文本 向 量 表示 的 经 典 做 法 是 采用 向 量 空间 模型 
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(VSM) ,即将 文本 表示 成 实数 值 分 量 所 构成 的 向 量 ,分 
量 可 以 采用 词 频 或 者 词 的 TFIDF 值 表 示 。 由 于 词 频 无 
法 表示 词 的 重要 程度 ,而 TFIDF 可 以 用 于 评估 一 个 词 
对 语料库 中 一 份 文 件 的 重要 程度 ,因此 目前 以 TF-IDF 
进行 向 量 表示 的 做 法 较为 广泛 。 虽 然 向 量 空间 模型 具 
有 清晰 明确 易 解释 的 优点 ,但 是 其 存在 向 量 维度 随 着 
词 表 增 大 而 增 大 且 向 量 高 度 稀 玻 的 问题 ,同时 其 也 无 
法 处 理 同义词 .近义词 的 语义 问题 ,例如 “术语 抽取 ” 
“语义 挖掘 "和 “太阳 能 电池 ”三 个 词 在 TFIDF 特征 向 
量 中 代表 三 个 特征 维度 ,这 些 词 特征 之 间 虽 然 有 一 定 
语义 相似 关系 但 在 TFIDF 中 却 无 法 度量 。 对 此 ， 
Google 公司 在 2013 年 推出 的 Word2Vec 技术 能 够 使 用 
低 维度 连续 分 布 式 向 量 来 表示 一 个 词 的 语义 ,并 且 能 
够 有 效 表征 同义词 .近义词 等 语义 相近 的 词 之 间 的 相 
似 关 系 ,因此 在 文本 向 量 表示 方面 具有 更 高 的 可 用 性 。 
GO 本 研究 采用 基于 Word2Vec 词 向 量 的 专利 文本 向 
其 溢 示 方 法 进行 深度 学 习 模型 的 专利 文本 向 量 表示 ， 
ERHET TFIDF 的 专利 文本 向 量 表示 方法 作为 对 照 
模型 的 文本 向 量 表示 方 法 。 
3G» 基础 模型 

CJ(1) ANN 模型 。ANN 模型 是 神经 网 络 中 基础 的 全 
巡 萎 层 模型 ,模型 包括 三 层 , 分 别 是 输入 层 , 隐 藏 层 和 
输出 层 , 层 和 层 之 间 是 全 连接 。ANN 模型 能 够 将 连续 
分 礁 式 向 量 表示 映射 到 专利 文本 的 标记 空间 ,本 质 也 
局 月 饮 对 专利 文本 的 词 向 量 表示 作 进 一 步 的 特征 变 
突出 融合 相关 特征 。 
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(2) TextCNN 模型 。TextCNN 是 将 卷 积 神经 网 络 
模型 用 于 NLP 任务 的 代表 性 模型 ” ,其 将 卷 积 神经 网 
络 和 语言 模型 的 N-gram 思想 结合 起 来 ,通过 不 同 大 小 
的 卷 积 核对 文本 向 量 进行 不 同 维度 的 上 下 文 特征 提 
取 , 然 后 通过 最 大 池 化 操作 对 提取 出 的 文本 向 量 进行 
村 征 强 化 操作 ,从 而 提升 文本 特征 提取 能 力 ,提升 文本 
分 类 效果 。 

假设 一 段 文本 词 向 量 表示 X= | x ,%,…,X, | ,Xi E 
R" ,TextCNN 分 成 三 个 阶段 , 卷 积 层 , 池 化 层 和 全 连接 层 ， 
见 图 1。 输 入 层 是 x; ,代表 某 件 专利 文本 的 词 向 量 。 

Xin 7x, x, DPD DX, 公式 (1) 

全 代表 拼接 操作 ,x, ,代表 专利 文本 中 的 第 i 到 j 个 
词 向 量 的 拼接 。 将 x, 作为 卷 积 层 的 输入 。 卷 积 层 结 
E N-gram 思想 采用 尺寸 分 别 为 2*d,3*d,4*d 和 5 
* d 四 种 大 小 的 卷 积 核对 xu 进行 不 同 维度 的 局 部 特 
征 抽 取 , 公 式 如 下 : 

c; 2f(w * x,,,, 4 +b) 公式 (2) 
C | 65,6), x] 公式 (3) 
w 为 卷 积 核 的 参数 ,h 为 卷 积 核 的 高 度 ,we R ,b 


为 偏 置 ,be R,f( * ) Jy Relu 激活 函数 ,C 为 卷 积 层 的 
一 个 输出 ,Ce R 

接着 采用 最 大 池 化 层 强化 特征 , 即 C = max(C)， 
最 后 将 池 化 层 结果 并 拼接 起 来 经 过 全 连接 层 得 到 Tex- 
tCNN 的 输出 ,也 可 直接 通过 池 化 层 的 输出 直接 进行 
Softmax 分 类 操作 。 


i 
池 化 层 全 连接 层 


图 1 TextCNN 结构 
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(3) GRU/BiGRU 模型 。GRU 是 循环 神经 网 络 的 
一 种 变 体 , 和 LSTM 类 似 是 一 种 特殊 的 循环 神经 网 络 
结构 “1 。 标 准 的 循环 神经 网 络 单元 中 ,只 包含 一 个 
tanh 层 进行 重 复学 习 , 所 以 会 出 现 梯度 消失 或 者 梯度 
爆炸 的 问题 。 为 了 解决 这 些 问 题 , 基 于 门 控 的 循环 神 
经 网 络 例如 LSTM 和 GRU 就 被 提出 。 本 文选 择 RNN 
模型 中 的 GRU 而 非 LSTM 的 原因 是 实验 表明 GRU 和 
LSTM 的 效果 相差 不 大 , 且 GRU 有 更 少 的 训练 参数 ,由 
LSTM 的 三 个 门限 单元 变 成 了 GRU 的 两 个 门限 单元 ， 
因此 相对 容易 训练 ,并 且 过 拟 合 的 问题 相对 较 少 。 


量 的 序列 化 表示 ,进行 分 类 操作 。GRU 单元 中 包含 两 
个 门 :更 新 门 和 复位 门 , 见 图 2。GRU 单元 的 计算 公式 
如 下 所 示 : 


z, Z9 (W, x, +U, h, , € b.) 公式 (4) 

r, Gg (W,x, - U, h, +b,) 公式 (5) 

h, 2 tanh(W, x,+U,(r,h,,) *b,) 公式 (6) 
h,=(1-z,) h, , *z,h, 公式 (7) 


其 中 ,是 1-1 时刻 GRU 单元 的 输出 ,x, 是 上 时 
Zi] GRU 单元 的 输入 ,z, 是 更 新 门 的 输出 ,WW.,U, RII b. 
是 更 新 门 的 权重 ,” 是 复位 门 的 输出 ,W,,U, 和 凡是 复 


GRU 通过 共享 参数 的 GRU 单元 依次 对 文本 向 量 
进行 计算 ,并 通过 最 后 一 步 的 隐藏 向 量 作为 原文 本 问 


lic ziRUCA o me Lan] 

h, 代表 第 上 步 的 隐藏 表示 。 

GRU 在 对 句子 进行 编码 的 时 候 考 虑 了 词 的 上 文 
信息 ,但 是 往往 有 的 时 候 一 个 词 下 文 的 词 对 词 的 编码 
也 会 起 到 一 定 作 用 ,所 以 这 个 时 候 就 考虑 到 了 双向 循 
环 神经 网 络 对 句子 进行 编码 。BiGRU 在 GRU 的 基础 
上 通过 GRU 单元 分 别 对 句子 进行 正 向 和 反 向 编码 , 正 
向 反 向 编码 的 GRU 单元 内 部 的 参数 不 共享 ,文本 向 量 
经 过 BiGRU 层 编码 得 到 文本 的 隐藏 向 量 表示 为 H= 广 
和 = ok, Ioh, Ale dim 


公式 (8) 


及 =CRU(x) ,te[l,m] 公式 (9) 
k, =GRUœx,),te[m,1] 公式 (10) 


I TP MY c» y 
h, fA, SE Y x, 的 上 下 文 信息 ,但 是 注意 力 还 是 


序 信息 是 文本 的 重要 特征 ,由 于 GRU 循环 神经 


位 门 的 权重 ,WW, ,U, I b, 是 输出 门 的 权重 ,h, 是 上 时 刻 


GRU 单元 的 输出 。 


网 络 能 够 对 文本 向 量 进行 序列 化 建 模 并 表征 语序 信 
息 , 因 此 将 其 引入 到 专利 文本 分 类 中 。 又 因 GRU 仅 考 
虑 文本 向 量 上 文 语序 特征 ,而 BiGRU 考虑 上 下 文 语序 
特征 ,为 了 研究 分 类 效果 两 者 在 本 研究 中 均 有 考虑 。 
(4) Attention 机 制 。Attention 机 制 源 于 视觉 图 像 
领域 ,后 应 用 到 NLP 领域 并 不 断 取得 新 进展 ” 。 现 经 
不 断 改 进 已 形成 多 种 变 体 ,但 核心 思想 基本 为 通过 给 
向 量 分 配 不 同 的 权重 系数 来 突出 对 结果 影响 较 大 的 特 


征 。 


本 文采 用 的 Attention 方法 基本 思路 为 :假设 原文 
KEKR X= ix, qu yer A | ,经 过 循环 神经 网 络 
得 到 每 一 步 的 隐藏 表示 H = (huh, s hs] 。 通 过 给 
循环 神经 网 络 得 到 的 每 一 步 的 隐藏 表示 赋 一 个 权重 向 
Ha VASE: 


u, =tanh( W, h, +b,) 公式 (11) 
exp(u, U) per 

CLE dii Rl NN 12 

a, Saptu’ U) 公式 ( ) 

od y 公式 (13) 


u, Æ h, 的 隐藏 表示 ,C = (u, Uz, t, U} s4, 是 通 
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过 隐藏 表示 u, 计算 得 到 的 归 一 化 后 的 概率 权重 ,通过 
概率 权重 和 原始 循环 神经 网 络 的 隐藏 表示 得 到 基于 权 
重 的 文本 向 量 C = |c,c ruolo 

Attention 机 制 通过 自学 习 到 的 一 个 权重 矩阵 对 文 
本 的 词 向 量 或 其 他 隐藏 表示 向 量 不 同位 置 赋予 不 同 权 
, 旨 在 突出 关键 特征 ,忽略 无 用 特征 。 让 模型 更 加 注 
于 那些 对 结果 影响 大 的 部 分 。Attention 机 制 不 受 句 


limi 
ipu 


lili 


子 长 度 的 限制 ,能 够 突出 长 句 中 的 关键 特征 ,因此 本 文 
在 分 类 模型 中 引入 了 Attention 机 制 。 
3.2 分 类 模型 设计 

基于 上 述 文 本 向 量 表示 方法 和 基础 模型 ,本 研究 
结合 专利 文本 相对 结构 化 的 撰写 特点 , 共 设 计 了 7 种 
深度 学 习 模 型 ,并 设计 3 种 经 典 机 器 学 习 模 型 作为 对 
照 , 以 判别 深度 学 习 模 型 的 分 类 效果 ,如 表 1 所 示 : 


表 1 本 研究 设计 的 10 种 专利 自动 分 类 模型 


模型 类 型 模型 模型 特点 

经 典 机 器 学 习 模型 TFIDF + LR 基线 模型 
TFIDF + DT 
TFIDF + RF 


深度 学 习 模 型 Word2Vec + ANN 
Word2Vec + TextCNN 
Word2Vec + GRU 
Word2Vec + BiCRU 
Word2Vec + BiGRU + TextCNN 


Word2Vec +ATT 


Word2Vec + BiCRU + ATT + TextCNN 


"TFIDF + 经 典 机 器 学 习 模 型 "是 本 研究 设计 的 基 
5 双 照 模型 ,其 以 专利 文本 的 TFIDF 特征 向 量 作为 输 
COR FEE E SCR CLR) 决策 树 模型 (DT) 和 随机 
森林 模型 (RF) 三 种 经 典 分 类 模型 来 训练 专利 文本 自 
aed. 
3» Word2 Vec + ANN 
C" Word2Vee + ANN" 是 为 了 区 分 专利 文本 中 近 义 
词 同义词 以 获得 更 好 的 自动 分 类 效果 的 一 种 分 类 模 
ETE 
假设 一 篇 专利 文本 的 词 向 量 表示 了 X= |a yx，…， 
x, | ,Xi e R^, Word2Vec + ANN 模型 计算 公式 简单 描述 


m 


如 下 : 


X=Flatten(X) 公式 (14) 
H - tanh( W, X 4 b,) 公式 (15) 
O - sofimax (W, H +b,) 公式 (16) 
eon 0 公式 (17) 


Flatten( * ) 为 向 量 展开 操作 ,将 高 维 向 量 展开 成 
维 向 量 , 五 代表 隐藏 层 输出 ,0 代表 输出 层 输出 ,7 代 
表 模型 预测 出 的 标签 ,到 和》 为 网 络 权重 参数 。 
3.2.3 Word2Vec + TextCNN 
Word2 Vec + ANN 模型 直接 将 专利 文本 向 量 展开 
成 一 维 , 这 个 过 程 会 丢掉 文本 上 下 文 .语序 等 很 多 语义 
信息 ,而 且 无 法 发 挥 深度 学 习 的 特征 提取 和 表示 能 力 。 
为 了 提取 和 强化 局 部 上 下 文 的 特征 ,本 文 提出 了 


解决 近义词 .同义词 特征 问题 
强化 上 下 文 特征 
考虑 语序 特征 
考虑 双向 语序 特征 ,解决 一 词 多 义 问题 
同时 考虑 上 下 文 特征 和 双向 语序 特征 
强化 关键 特征 
同时 考虑 上 下 文 特征 和 双向 语序 特征 ,强化 关键 特征 
“Word2Vec + TextCNN” 模 型 。 
假设 一 篇 专利 文本 的 词 向 量 表示 X= | xi ,x,,…， 
xX, | x; e R", Word2Vec + TextCNN 模型 计算 公式 简单 
描述 如 下 : 


C; = Convld(X,j) Je€[2,5] 公式 (18) 
P, = Maxpooling( C;) ,je[2,5] 公式 (19) 
0,,, =P, DP, DBP, OP, 公式 (20) 

0 = sofimax ( W, Oon b,) 公式 (21) 

y = argmax( 0) 公式 (22) 


Convld(X,j) "B ,X RRIA TextCNN 的 专利 文本 
词 向 量 ,i 代表 卷 积 核 的 大 小 ,Maxpooling ( * ) 代表 最 
大 池 化 操作 ,四 代表 向 量 拼接 操作 , 权 RI o, 代表 输出 
层 的 网 络 参 数 ,y 代表 模型 预测 的 类 别 。 
3.2.4 Word2Vec + GRU 

Word2Vec + TextCNN 模型 提取 并 强化 了 当前 词 和 
邻近 词 的 特征 ,但 是 没有 考虑 专利 文本 全 局 的 语序 特 
征 。 对 于 NLP 任务 ,语序 特征 是 一 项 很 独特 的 特征 。 
对 于 图 像 来 说 ,调换 茶 两 个 位 置 的 像素 值 可 能 对 结果 
不 会 产生 特别 大 的 影响 ,但 对 于 文本 来 说 ,调换 某 两 个 
词 的 顺序 可 能 会 使 得 句子 的 语义 产生 很 大 变化 。 所 以 
针对 句子 语序 建 模 的 问题 ,本 文 提出 了 “Word2Vec + 
CRU "模型 。 

假设 一 篇 专利 文本 的 词 向 量 表示 X= ix, 
x, | ,Xi e R", Word2Vec + GRU 模型 计算 公式 简单 描述 
如 下 : 
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h, GRU(h, ,,x)) ,te[1,m] 公式 (23) 
O - sofimax ( W, h, +b,) 公式 (24) 
少 = argmax ( 0) 公式 (25 ) 


GRU(h, , x, ) 中 ,凡人 代表 上 -1 步 的 隐藏 表示 ,yx， 
代表 当前 输入 ,h, 代表 最 后 一 步 的 隐藏 表示 ,0O 代表 
输出 层 的 输出 ,WW, Ro, 代表 输出 层 的 网 络 参数 ,y 代 
表 模 型 预测 的 类 别 。 

3.2.5 Word2Vec + BiGRU 

Word2Vec + CRU 模型 考虑 了 正 向 的 语序 特征 ,也 
就 是 在 第 t 步 时 间 做 计算 的 时 候 只 会 考虑 到 前 1-1 步 
的 历史 状态 ,而 不 会 考虑 从 i+1 之 后 的 信息 ,所 以 使 
用 GRU 对 专利 文本 的 词 向 量 做 序列 建 模 可 能 是 不 全 
面 的 ;而 BiGRU 对 专利 文本 的 词 向 量 做 序列 建 模 时 同 
时 有 进行 双向 建 模 , 不 仅 考虑 了 双向 语序 特征 ,而且 考 虑 
了 页 后 文 语义 特征 。 基 于 此 ,本 文 提出 了 “Word2Vec 
CÉIGRU" BER, 
假设 一 篇 专利 文本 的 词 向 量 表示 X= {x ,%,,，…， 
, € R" ,Word2Vec + BiGRU 模型 计算 公式 描述 如 下 : 


六 =CRU(h rw) ,te [l,m] 公式 (26) 
k 2CRU(h, ) ,te[m,1] 公式 (27) 


0 - softmax(W,(h, Bh) +b,) 公式 (28) 
N 公式 (29) 
汪 太 为 正 向 建 模 第 t 步 的 隐藏 表示 ,入 为 逆向 建 模 第 
+ 妃 静 隐藏 表示 ,根据 上 述 公式 可 知 , 正 向 建 模 的 最 后 
一 龟 隐 藏 表示 为 及 ,着 向 建 模 的 最 后 一 步 隐藏 表示 为 
À, BEDA. Bh J BIGRU 层 的 隐藏 输出 ,0 代表 输出 层 
的 输出 ,WW, ju o, 代表 输出 层 的 网 络 参数 ,? 代表 模型 
预测 的 类 别 。 
3.2.6 Word2Vec + BiGRU + TextCNN 

Word2Vec + BiGRU 模型 较为 完善 的 考虑 了 双向 
语序 特征 ,同时 根据 上 下 文 的 语义 信息 动态 调整 了 词 
向 量 表示 ,在 一 定 程度 上 解决 了 一 词 多 义 的 问题 。 但 
是 没有 提取 和 强化 当前 词 的 上 下 特征 ,这 会 使 得 一 些 
隐藏 的 关键 特征 没有 明显 的 突出 出 来 ,导致 分 类 结果 
不 理想 。 所 以 本 文 结合 提取 序列 特征 的 BiGRU 模型 
和 强化 上 下 文 特征 的 TextCNN 模型 提出 了 “Word2Vec 
+ BiGRU + TextCNN ”模型 。 该 模型 首先 使 用 BiGRU 
对 专利 文本 的 向 量 表示 进行 双向 建 模 ,得 到 根据 上 下 
文 动态 调整 词 向 量 后 的 隐藏 表示 ,然后 以 该 隐藏 表示 
作为 TextCNN 的 输入 ,通过 卷 积 神经 网 络 提取 特征 和 
池 化 层 强化 特征 。 

假设 一 篇 专 利文 本 的 词 向 量 表示 下 = on ums 


y =argmax( 0) 


x | ,x, e R' ,Word2Vec + BiGRU + TextCNN 模型 计算 公 


m 


式 简单 描述 如 下 : 


d -GRÜ(h, m) ,te[l,m] 公式 (30) 
k =CRU(Ch, x) ,te[m,1] 公式 (31) 
« > 


> > 4 > 4 4 
H-HOHzc-|h,Qh,,h,Qh, ,--- ,h, Ohn 


C;sComld(H,),je[2,5] 公式 (33) 
P, = Maxpooling( C,) ,je [2,5] 公式 (34) 
Oou =P, DP, OP, OP, 公式 (35 ) 
O = softimax (W, O œ +b,) 公式 (36) 
y=argmax( 0) 公式 (37) 
HP HARR BiGRU 层 的 隐藏 表示 ,由 正 向 隐藏 表 
示 和 逆向 隐藏 表示 构成 。 
3.2.7 Word2Vec + Attention 
TextCNN 能 够 捕捉 的 局 部 的 上 下 文 关键 特征 ， 
BiGRU 对 序列 特征 进行 建 模 和 提取 ,但 是 这 两 种 方法 
有 一 定局 限 , 那 就 是 对 于 长 距离 的 关键 特征 无 法 有 效 
地 捕 提 并 强化 。 由 于 Attention 机 制 能 够 突出 长 句 中 的 
关键 特征 ,因此 本 文 提出 了 “Word2Vec + Attention” 模 
型 , 即 通过 词 向 量 训练 得 到 一 组 对 应 于 词 向 量 的 特征 
权重 矩阵 ,通过 基于 权重 的 词 向 量 加 权 得 到 最 后 的 文 
本 向 量 表示 。 
假设 一 篇 专利 文本 的 词 癌 量 表示 X= dx... 
xX, | ,x, e R", Word2Vec + Attention 模型 计算 公式 简单 
描述 如 下 : 


u, =tanh( W, x, +b,) 公式 (38 ) 
exp(u, U) per 

= 一 一 一 一 一 一 一 39 

a, S, expla! U) 公式 (39 ) 

c-Y,a,x, 公式 (40 ) 

O - sofimax (W, c 4 b.) 公式 (41 ) 

y 2 argmax ( 0) 公式 (42) 


u, A FH x, 计算 得 到 的 隐藏 表示 ,a, 则 是 由 隐藏 表 
示 归 一 化 得 到 的 权重 向 量 , 到 和 ,4 为 网 络 参数 ,c 代表 
根据 Attention 权重 矩阵 加 权 得 到 的 文本 向 量 表示 。 
3.2.8 Word2Vec + BiGRU + Attention + TextCNN 

综合 以 上 六 种 深度 学 习 模型 的 特点 ,融合 能 够 对 
专利 文本 向 量 进行 双向 序列 化 建 模 的 BiGRU 模型 ,使 
昌 卷 积 神经 网 络 提取 局 部 特征 通过 池 化 层 强化 特征 的 
TextCNN 模型 .能够 忽略 距离 强化 关键 特征 的 Attention 
机 制 ,提出 本 文 第 七 种 深度 学 习 模型 一 一 “ Word2Vec 
+ BiGRU + Attention + TextCNN” 模 型 。 首 先 通 过 BiG- 
RU 对 词 向 量 进行 动态 调整 ,然后 使 用 Attention 机 制 对 
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BiGRU 输出 的 隐藏 表示 进行 权重 调整 ,最 后 将 调整 后 
的 隐藏 表示 作为 TextCNN 的 输入 。 

假设 一 篇 专利 文本 的 词 向 量 表示 X= ix. 
x, 1 ,x, e R^, Word2Vec + BiGRU + Attention + TextCNN 
模型 计算 公式 简单 描述 如 下 : 


d, -GRÜ(h, x) ,te[1,m] 公式 (43) 
I 2CRU(h, ) ,te[m,1] 公式 (44) 


» «* + «€ t «€ * € 
H-HGQH- [h Gh, „h, Dh, y^ A, GA, | 


公式 (45 ) 
u, =tanh( W, k Bh) +b,) 公式 (46) 

; 
arza ERED 
c, 2 a (hh) 公式 (48) 
p C= le,6 c] 公式 (49) 
IO Conv, = Conld(C,j) je [2,5] 公式 (50) 
E P, = Maxpooling ( Conv,) ,je [2,5] 公式 (51) 
e 0. 2 P,0P,OP, GP, 公式 (52) 
e O = sofimax( W, 0, *b,) 公式 (53) 
e 了 = argmax( 0) 公式 (54) 


CD 其 中 万 是 BIGRU 层 输出 的 隐藏 表示 ,C 是 Atten- 
ti 合 层 输出 的 隐藏 表示 ,不 同 于 Word2Vec + Attention 
Hel com eum. 

3.3 模型 效果 评估 指标 

.二 本 文选 用 三 种 评价 指标 来 评估 模型 效果 ,分 别 是 
TRR, BRA FI 值 ,采用 安平 均 指标 计算 。 宏 平 
均 狂 标 是 先 对 每 一 个 类 别 计算 统计 指标 ,然后 对 所 有 


M pM p 


i if 
Q | 数据 集 构 建 : 


文本 预 处 理 。 | | 文本 


词性 标注 及 部 
分 词性 剔除 


Word2Vec ii] 
向 量 拼接 


类 别 计算 算数 平均 值 ,公式 如 下 。 
_ 预测 出 的 k 类别 并 且 正 确 的 样本 数 
Ps 预测 出 的 上 类 别 的 样本 数 


公式 (55) 
，_ 预测 出 的 上 类 别 并 且 正 确 的 样本 数 
“测试 样本 中 的 上 类 别 的 数目 


公式 (56) 
2*p,*r, 
pl, -— 575 公式 (57) 
py tr 
1 ( : 
P= Xin 公式 (58 ) 
1 e " 
Re X usd 公式 (59) 
1 " 
Hx xis FL, 公式 (60) 


其 中 代表 总 类 别 数 目 ,pi ,rt 和 FL, 分 别 代表 
类 别 的 准确 率 , 召回 率 和 Fl 值 。 准 确 率 p, 是 衡量 正 
确 划分 到 类 别 的 文本 占 划 分 到 类别 的 文本 的 比 
例 ,p; 越 大 说 明 模 型 对 于 天 类 别 样本 分 类 越 准 确 。 召 
EK r, 是 衡量 正确 划分 到 下 类 别 的 文本 占 实际 文本 中 
上 类 别 的 文本 的 比例 ,mm 越 大 说 明 模 型 在 大 类 别 上 漏 掉 
的 样本 越 少 。F1, 综合 考虑 准确 率 和 召回 率 , 值 越 高 
说 明 磊 类 别 的 分 类 效果 越 理 想 。 
3.4 方法 实施 流程 

本 文 设计 的 专利 自动 分 类 方法 流程 分 为 5 个 步 
又 ,分 别 是 :数据 集 构建 ,文本 预 处 理 ,文本 向 量化 , 模 
型 训练 及 调 参 和 模型 分 类 效果 评估 ,如 图 3 所 示 : 


i | 
| HORE | 
n 随机 森林 | 


| ANN | 
| | 
! GRU | 
(| 
| EE 


图 3 专利 自动 分 类 流程 
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图 3 中 各 环节 具体 释义 如 下 : 

(1) 数 据 集 构建 。 从 专利 数据 库 中 提取 出 适当 数 
量 的 带 类 别 标签 的 专利 ,作为 原始 数据 集 集合 ,将 原始 
数据 集 集合 划分 成 训练 集 和 测试 集 两 个 部 分 :训练 集 
和 测试 集 。 训 练 集 是 用 于 训练 专 类 自动 分 类 模型 的 数 
据 集 ,为 了 更 好 的 训练 模型 ,训练 集中 部 分 比例 会 划分 
出 来 作为 验证 集 配合 训练 模型 。 测 试 集合 是 用 于 评价 
已 训练 好 的 专利 自动 分 类 模型。 

(2) 文 本 预 处 理 。 包 括 分 词 , 去 除 停 用 词 和 词性 
标注 去 特定 词性 三 个 步骤 。 对 中 文 而 言 , 字 是 最 小 的 
字符 单元 ,而 最 小 的 语义 单元 是 词 ,所 以 为 了 模型 能 
从 语义 的 角度 处 理 文本 ,取得 更 好 的 效果 ,在 文本 预 处 
理 阶 段 第 一 步 先 对 数据 集中 的 专利 文本 部 分 分 词 处 
更 二 专利 文本 的 分 词 结果 中 会 存在 一 些 噪声 词 ,如 特 
殊 室 符 或 者 无 实际 意 意义 的 虚词 ,这 些 词 通过 去 除 停 用 
HUE ABRIERA AH | 

Filsciap 的 方式 列 除 。 
= 采用 基于 TF-JIDF 的 向 量 空间 模 
型 进行 三 种 传统 基线 模型 的 文本 向 量化 ,采用 基于 
Wosd2 Vec 词 向 量 的 向 量 拼接 法 进行 七 种 深度 学 习 模 
fid Rc ar 
CC(4) 模 型 训练 及 调 参 。 采 用 前 文 所 述 的 10 种 专利 
儿 训 分 类 模型 进行 模型 训练 和 参数 调 优 ,训练 过 程 保 
留 塞 验证 集 上 效果 最 好 的 模型。 
2 (5 模型 分 类 效果 评估 。 将 10 种 分 类 模型 在 测试 
集 虹 进行 测试 ,评估 其 在 准确 率 、 召 回 率 FI 值 指标 上 


的 表现 o 


ligi 


4 实验 结果 及 效果 分 析 
4.1 分 类 依据 及 实验 数据 


本 文选 取 专 利 IPC 主 分 类 号 的 “部 ”作为 分 类 依据 


(各 部 含义 见 表 2) 。 从 中 科 院 专利 在 线 分 析 系统 随机 
表 2 分 类 依据 
IPC 部 技术 含义 
A 人 类 生活 必需 
B 作业 ;运输 
C 化 学 ;冶金 
D 纺织 ;造纸 
E i de T 
F 机 械 工程 ;照明 ;加 热 ; 武 器 ;爆破 
G 物理 
H 电学 
抽取 80 000 条 专利 数据 作为 数据 集 ,将 数据 集 划 分 成 


三 个 部 分 :50 000 条 作为 训练 集 ,10 000 条 作为 验证 
集 ,20 000 条 作为 测试 集 。 采 用 的 Word2Vec 词 向 量 模 
型 基于 CBOW 模型 从 三 千 多 万 中 文 专利 数据 训练 获 
得 ,训练 参数 size 为 300, min. count X 40, window 为 
10 sample 7j le -3, 
4.2. 分 类 结果 及 结果 分 析 

本 文采 用 Mini-batch 训练 ,经 过 试验 分 析 ,最 终 选 
择 每 个 Mini-batch 样本 大 小 为 200 , 词 向 量 维度 是 300 , 
循环 神经 网 络 输出 维度 是 300 , 卷 积 神经 网 络 输出 维 
度 是 300 , 卷 积 核 大 小 分 别 为 2,3 ,4,5。 模 型 迭代 至 验 
证 集 上 结果 收敛 为 止 ,并 且 保留 在 验证 集 上 效果 最 好 
的 模型 结果 。 结 果 如 表 3 所 示 : 


o 
RI 模型 自动 分 类 结果 
模型 类 型 模型 准确 率 召回 率 FI 
经 典 机 器 学 习 模型 TFIDF 4 LR 0.780 5 0.7784 0.778 6 
TFIDF + DT 0.575 9 0.574 0 0.574 8 
TFIDF + RF 0.715 6 0.7117 0. 708 2 
深度 学 习 模型 Word2Vec + ANN 0.7300 0.730 1 0.730 0 
Word2Vec + TextCNN 0.810 3 0.807 5 0.807 5 
Word2Vec + GRU 0.808 3 0.809 1 0.808 1 
Word2Vec + BiGRU 0.812 0 0.811 7 0.811 4 
Word2Vec + BiGRU + TexiCNN 0.822 0 0.818 3 0.817 5 
Word2Vec + ATT 0.763 6 0.762 6 0.762 2 
Word2 Vec + BiGRU + ATT + TextCNN 0.823 0 0. 824 3 0.823 1 


videbo ik a DEL 
模型 的 分 类 准确 率 、 召 回 率 和 Fl 值 对 比 结 


以 下 对 实验 结果 进行 分 析 阐 释 : 
C) 深度 学 习 模 型 的 效果 基本 优 于 经 


典 机 器 学 习 
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， 韩 涛 ， 周 健 ， 等 . 基于 深度 学 习 的 中 文 专利 自动 分 类 方法 研究 [J]. 图 书 情报 工作 ,2020 ,64(10) :75 - 85. 


W2V+ATT 
0.75 W2V+ANN 
TFIDF+RF 
07 
0.65 
0.6  TFIDF+DT 
0.55 | 
0.5 


eR a AER = FÉ 


Wav W2V+ 
+BiGRU+ BiGRU+ATT 
CRU TextCNN +TextCNN 


W2V+GRU W2V+TextCNN wav 


4 十 种 模型 的 分 类 准确 率 、 召 回 率 和 FL 值 对 比 


模型 。 除 Word2Vec + ANN 和 Word2 Vec + ATT 外 的 深 
i pda 回 率 和 FI 值 均 高 于 0.8 ,而 
志 种 经 典 机 器 学 习 模型 的 指标 均 低 于 0.8。 由 于 ANN 
特征 表示 能 力 相对 较 弱 、 直 接 在 词 向 量 的 基础 上 引入 
Attention 机 制 不 能 较 好 地 表示 隐藏 特征 , Word2 Vec + 
ANN 和 Word2 Vec + ATT 的 效果 在 所 有 深度 学 习 模型 
现 最 低 , 其 效果 仍旧 显著 优 于 TFIDF + DT 和 
TEROF + RF ,这 表明 通过 对 文本 向 量 做 特征 提取 和 强 
做 台 分 类 结果 的 优化 具有 一 定 促进 作用 。 
"(2) 考 虑 上 下 文 特征 和 语序 特征 对 于 分 类 效果 提 
" TextCNN 模型 基于 卷 积 神经 网 络 对 专 
f 


本 进行 上 下 文 的 特征 抽取 和 强化 ;CRU 模型 对 专 
利 实 本 进行 正 向 序列 建 模 ,强化 了 上 文 的 序列 特征 ; 
BiGRU 模型 对 专利 文本 进行 双向 建 模 ,强化 了 上 下 文 
的 迪 列 特征 。 这 些 特征 的 考虑 使 得 Word2Vec + TextC- 
NN .Word2Vec + GRU 和 Word2Vec + BiGRU 均 取得 了 
高 于 0.8 的 指标 得 分 。 在 此 基础 上 ,将 BIGRU 和 Tex- 
tCNN 模型 进行 结合 ,对 双向 语序 特征 建 模 同时 考虑 上 
下 文 特征 取得 了 优 于 单纯 使 用 TextCNN 和 BiGRU 的 
模型 效果 。 

(3) 引 入 Attention 机 制 强化 关键 特征 对 于 分 类 结 
果 具 有 正 向 影响 。 在 10 种 自动 分 类 模型 中 ,Word2Vec 
+BiGRU + ATT + TextCNN 模型 表现 最 优 ,这 表明 在 考 
虑 上 下 文 特 征 和 双向 语序 特征 的 同时 ,引入 Attention 
机 制 强 化 关键 特征 能 够 有 效 提升 专利 文本 分 类 的 效 
果 。 


5 ”结果 讨论 及 展望 
本 文 针对 中 文 专利 多 分 类 的 问题 ,基于 TextCNN、 


GRU Attention 等 技术 ,设计 了 7 种 专利 自动 分 类 深 
学 习 模 型 ,并 与 3 种 传统 经 典 自动 分 类 模型 进行 效 
比 对 评估 ,最 终 发 现 采 用 考虑 语序 特征 、 上 下 文 特征 及 
强化 关键 特征 的 深度 学 习 模 型 较 之 传统 分 类 模型 进行 
中 文 专利 分 类 具有 更 优 的 分 类 效果 。 其 中 ”Word2Vec 
+ BiGRU + ATT + TextCNN ”模型 在 这 10 个 模型 表现 出 
了 最 优 效果 ,具有 最 高 的 分 类 准确 率 、 召 回 率 和 FTl 值 。 
在 当前 国家 对 专利 审查 工作 提速 要 求 的 背景 下 ,该 模 
型 在 一 定 程 度 上 将 对 优化 提升 现 有 自动 分 类 方法 和 工 
具 的 效果 、 提 升 专利 分 类 工作 效率 及 缩短 专利 审查 周 
期 具有 借鉴 意义 和 参考 价值 。 

但 是 本 文 的 研究 工作 仍旧 有 待 改进 , 即 专利 分 类 
问题 属于 多 标签 分 类 问题 ,而 本 研究 仅 选 取 专 利 的 主 
分 类 号 开展 了 单 标 签 多 分 类 问题 的 研究 ;同时 ,专利 
IPC 分 类 包括 部 .大 类 ,小 类 、 大 组 和 小 组 五 个 层级 ,更 
细 类 别 的 分 类 意味 着 类 别 数量 的 大 幅 提 升 ,对 分 类 模 
型 提出 了 更 高 要 求 ,本 文 的 研究 仅 针对 “部 ”开展 自动 
分 类 研究 ,之 后 需 对 更 细 层 级 的 分 类 模型 进行 研究 。 
此 外 ,本 研究 提出 的 方法 还 可 在 国际 上 针对 专利 分 类 
发 布 的 评测 任务 和 数据 (如 NTCIR 评测 比赛 的 专利 分 
2E E48). 上 应 用 和 验证 ,从 而 扩大 研究 的 影响 力 与 
应 用 范围 。 

深度 学 习 技 术 的 发 展 方兴未艾 ,例如 Google 于 
2018 年 发 布 的 BERT 预 训练 语言 模型 已 在 11 个 NLP 
任务 中 刷新 了 记录 ,这 对 进一步 优化 专利 自动 分 类 模 
型 的 分 类 效果 提供 了 可 能 。 下 一 步 工作 中 ,将 继续 研 
究 基于 动态 文本 表示 模型 的 专利 自动 分 类 方法 ,以 期 
获得 更 优 的 分 类 效果 。 
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Abstract; | Purpose/significance | In order to meet the needs of classifying massive patent automatically in cur- 


eht patent examination and patent information analysis work, this paper studies a series of patent automatic classifi- 


inaXd vc 


ion methods based on deep learning and compares the classification effects. This will promote the efficiency and 


ctiveness of patent classification. | Method/process | Aiming at the shortcoming of traditional machine learning 


Ánethods, 7 deep learning models was designed, including Word2 Vec + Text CNN, Word2Vec + GRU, Word2Vec + 
JSICRU, Word2 Vec + BiGRU + TextCNN and so on. These models based on the deep learning technology, such as 


Qo , CNN, RNN, Attention mechanism and so on and considered the characteristics of patent text word order, 


context features and other key features in classification. Selecting the ‘Section’ of main International Patent Classifi- 


cation (IPC) was as the class labels, the study classified the Chinese patents by above 7 deep learning models and 3 


traditional machine learning methods. And there was a comparison about the effect of classification in different mod- 


| Result/conclusion | The empirical research indicated that it reached the better effect of Chinese patent classifi- 


cation by using deep learning methods which considered the characteristics of patent text word order, context features 


and other key features in classification. 


Keywords: patent automatic classification 


deep learning word embedding patent text mining 
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